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Abstract 


Objective: A rapidly developing scenario like a pandemic requires the prompt pro- 
duction of high-quality systematic reviews, which can be automated using artificial 
intelligence (AI) techniques. We evaluated the application of AI tools in COVID-19 
evidence syntheses. 


Study design: After prospective registration of the review protocol, we automated 
the download of all open-access COVID-19 systematic reviews in the COVID-19 
Living Overview of Evidence database, indexed them for Al-related keywords, and 
located those that used AI tools. We compared their journals’ JCR Impact Factor, 
citations per month, screening workloads, completion times (from pre-registration 
to preprint or submission to a journal) and AMSTAR-2 methodology assessments 
(maximum score 13 points) with a set of publication date matched control reviews 
without AI. 


Results: Of the 3999 COVID-19 reviews, 28 (0.7 %, 95 % CI 0.47-1.03 %) made use 
of AI. On average, compared to controls (n = 64), AI reviews were published in 
journals with higher Impact Factors (median 8.9 vs. 3.5, P<0.001), and screened more 
abstracts per author (302.2 vs. 140.3, P=0.009) and per included study (189.0 vs. 
365.8, P<0.001) while inspecting less full texts per author (5.3 vs. 14.0, P=0.005). No 
differences were found in citation counts (0.5 vs. 0.6, P=0.600), inspected full texts 
per included study (3.8 vs. 3.4, P=0.481), completion times (74.0 vs. 123.0, P=0.205) 
or AMSTAR-2 (7.5 vs. 6.3, P=0.119). 


Conclusion: AI was an underutilized tool in COVID-19 systematic reviews. Its usa- 
ge, compared to reviews without AI, was associated with more efficient screening of 
literature and higher publication impact. There is scope for the application of AI in 


automating systematic reviews. 


MeSH keywords: 
Artificial Intelligence; Systematic Review; COVID-19; 
Automation; Research Design; Bibliometrics 


Abstract en espafiol 


Objetivo: Un escenario dinadmico como una pandemia requiere la rapida produc- 
cién de revisiones sistematicas de calidad, que pueden automatizarse utilizando 
inteligencia artificial (IA). Se evalu6 el uso de herramientas de IA en las revisiones 
sistematicas sobre COVID-19. 


Disefio del estudio: Tras el registro prospectivo del protocolo del estudio, automa- 
tizamos la descarga de todas las revisiones sistematicas open-access sobre COVID-19 
en la base de datos COVID-19 Living Overview of Evidence, las indexamos en busca 
de palabras clave relacionadas con la IA y localizamos aquellas que utilizaban herra- 
mientas de IA. Comparamos el factor de impacto de sus revistas, las citas por mes 
recibidas, las cargas de trabajo en screening, el tiempo de elaboracion (dias desde el 
registro del protocolo hasta el primer preprint o envio a una revista) y la evaluacion 
metodolégica AMSTAR-2 (maximo, 13 puntos) con un grupo control de revisiones 


sistematicas que no usaron IA emparejadas por fecha de publicaci6n. 


Resultados: De las 3999 revisiones sobre COVID-19, 28 (0,7%, IC al 95%: 0,47- 
1,03 %) hicieron uso de IA. De media, en comparaci6n con los controles (n = 64), las 
revisiones con IA se publicaron en revistas con mayor factor de impacto (mediana 
8,9 vs. 3,5, P<0,001), y examinaron mas abstracts por autor (302,2 vs. 140,3, P=0,009) 
y por estudio incluido (189,0 vs. 365,8, P<0,001), a la vez que inspeccionaron menos 
full texts por autor (5,3 vs. 14,0, P=0,005). No se encontraron diferencias en las citas 
recibidas (0,5 vs. 0,6, P=0,600), en full texts inspeccionados por estudio incluido (3,8 
vs. 3,4, P=0,481), en los tiempos de elaboracion (74 frente a 123, P=0,205) ni en pun- 
tuaci6én AMSTAR-2 (7,5 frente a 6,3, P=0,119). 


Conclusion: La IA fue una herramienta infrautilizada en las revisiones sistematicas 
sobre COVID-19. Su uso, en comparacién con las revisiones sin IA, se asoci6 con 
una seleccién mas eficiente de la literatura y un mayor impacto de publicacién. Hay 
cabida para la aplicacion de la IA en la automatizacién de las revisiones sistematicas. 


Palabras clave MeSH: 
Inteligencia Artificial; Revisién Sistemdatica; COVID-19; 
Automatizacion; Disefio de Estudios; Bibliometria 
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{Qué aporta este estudio? 


Hallazgos clave 


« El uso de la inteligencia artificial (IA) en las revisiones sistematicas 
de COVID-19 fue muy bajo. 


» Las revisiones de COVID-19 que utilizaron herramientas de IA 
mostraron un mayor impacto de publicacién y una reduccién en 


la carga de trabajo. 
é Qué afiade esto a lo que se sabia? 


« El cribado semiautomatizado y el filtrado de ECA son los casos 
mas notables de uso de las herramientas de IA en la sintesis de 
pruebas. 


» Faltan herramientas de revisiOn sistematica que integren la IA de 


forma cohesionada. 
éCual es la implicacion y qué deberia cambiar ahora? 


» Hay cabida para la aplicacidn de la IA en la automatizacion de 


revisiones sistemAticas en el futuro. 


Articulo en espanol 


1. INTRODUCCION 


La medicina basada en la evidencia depende de la 4gil produccién de revisiones 
sistematicas para orientar y actualizar la practica clinica y las politicas sanitarias 
[1]. Esta es una tarea exigente y costosa, pues requiere que equipos de varios revi- 
sores consulten multiples repositorios y bases de datos, examinen miles de citas y 
articulos potencialmente relevantes, extraigan los datos pertinentes de los estudios 
seleccionados y sinteticen sus resultados [2, 3]. En el contexto de la pandemia de 
SARS-CoV2/COVID-19, se necesitaban urgentemente métodos para acelerar este 
laborioso proceso [4, 5]. 

La elaboracién de revisiones sistematicas requiere seguir procedimientos con- 
sistentes y estandarizados para obtener resultados fiables. Sin embargo, la necesi- 
dad de acelerar la obtencion de resultados durante la pandemia se tradujo en una 
disminucién generalizada de la calidad metodol6gica de las revisiones [6, 7] y la 
popularizacion de las “revisiones rapidas” [8, 9] (que acortan los plazos habituales 
de produccion sacrificando en rigor de la busqueda, precisi6n del screening o la 
extraccién de datos y a costa de un mayor riesgo de sesgos). ;Son estas omisiones 
inevitables para obtener resultados mas rapidos? 

En contraste, las soluciones basadas en inteligencia artificial (IA) automatizan 
partes del flujo de trabajo imitando la resoluci6n humana de problemas (incluyendo 
el uso de machine-learning, procesamiento del lenguaje natural, mineria de datos y 
otros subcampos) [10] para complementar o sustituir los esfuerzos humanos con 
un riesgo limitado de sesgos [11, 12, 13], y se han empleado previamente pero de 
forma escasa [14] en revisiones sistematicas con el fin de mejorar el screening [15] 
y la extraccién de datos [16, 17]. Su objetivo es acortar los tiempos de producci6n, 
permitir un cribado mas amplio de la literatura y reducir la carga de trabajo de los 
revisores sin comprometer la calidad metodolégica. 

En este trabajo, evaluamos el uso de las herramientas basadas en JA en las revi- 
siones sistematicas sobre el COVID-19 para determinar empiricamente si, en com- 
paracion con las revisiones sobre el COVID-19 sin IA, tuvieron un impacto en la 


producci6n, la calidad y la publicaci6n de las revisiones sistematicas. 
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2. MATERIALES Y METODOS 


Este estudio metodoldégico [18] se ha elaborado de acuerdo con las directrices 
PRISMA 2020 [19] (checklist proporcionada como Apéndice B), y su protocolo se re- 
gistré en Open Science Forum Registries (DOI 10.17605/OSF.IO/H5DAW) [20] de forma 


prospectiva. 


2.1. Btsqueda y seleccién de revisiones 


Se consideraron para su inclusion todas las revisiones sistematicas relacionadas 
con el COVID-19 que pudieran haber hecho uso de cualquier herramienta de IA 
(machine-learning, deep-learning 0 procesamiento del lenguaje natural) para acelerar, 
mejorar o complementar cualquier aspecto de la realizacién de la revisi6n (bUsque- 
da, screening, extraccién de datos y sintesis). Implementamos un script (disponible en 
el DOI 10.5061/dryad.9kd51c5j6) [21] para procesar todas las referencias bibliograficas 
registradas en la base de datos COVID-19 Living Overview of Evidence (L-OVE) [22] 
filtrando aquellas clasificadas como “revisiOn sistematica” entre el 1 de diciembre de 
2019 y el 15 de agosto de 2021, y, a continuaci6n, consultar la base de datos Unpaywall 
[23] con cada DOT extraido para obtener un registro JSON con enlaces de descarga. El 
proceso se repitid 3 veces desde la publicaci6n de nuestro protocolo con el objetivo 
de reducir la potencial pérdida puntual de revisiones por errores de conexi6n con 
dichos servidores (la tltima bisqueda fue el 17 de agosto de 2021). 

Para seleccionar las revisiones que utilizaron IA, elaboramos una lista de pa- 
labras clave con alta probabilidad de aparecer en articulos con herramientas de 
IA (Apéndice C). Indexamos cada archivo descargado con el motor de busqueda 
OpenSemanticSearch, que ejecutamos en una maquina virtual local. Cada archivo que 
contenia alguna de nuestras palabras clave fue inspeccionado manualmente de for- 
ma independiente por dos autores (JRTH y RFL). Se incluyeron preprints y articulos 
en otros idiomas ademas del inglés. El unico criterio de exclusion aplicado fue la 
no disponibilidad de los archivos en modalidad open-access, debido a la necesidad 
de evaluar la secci6n de métodos de cada revisién incluida. Para crear un grupo 
de comparaci6n con suficiente poder estadistico de revisiones sin IA, por cada revi- 
sidn incluida se utilizaron los registros obtenidos para seleccionar aleatoriamente 3 
controles con la misma fecha de publicaci6n (con un margen de un dia si no habia 
suficientes revisiones disponibles en una fecha determinada). Ademas, localizamos e 
incluimos en el andlisis todas las versiones anteriores de las revisiones categorizadas 


como living o como actualizaciones de otra publicada previamente (updated). 


2.2. Extracci6n de datos 


Dos autores (JRTH y RFL) extrajeron manualmente los siguientes datos de cada 
revision: tipo de revisiOn (segun la descripcién de sus autores: estandar, rapid o sco- 
ping, living o updated); informacion sobre la financiacién recibida y los conflictos de 
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intereses declarados; estado de publicaci6n, factor de impacto en el Journal Citation 
Reports (JCR) de 2020 de la revista que la publica y numero de citas recibidas (hasta 
el 17 de agosto de 2021); namero de abstracts inspeccionados, full texts revisados y 
estudios primarios incluidos; nimero de autores y de revisores que participaron en 
el screening; y fechas de registro del protocolo (si estaba disponible) y de la versi6n 
mas antigua de la revision. Para las revisiones living y updated, se calcul6 la diferencia 
de abstracts inspeccionados y estudios incluidos entre cada una de sus versiones y 
se atribuy6 su recuento de citas a la mas reciente (para evitar contabilizarlas doble- 
mente). Se utiliz6 Excel para registrar todas las variables. 

Tres autores (JRTH y RFL, asistidos por CAP) evaluaron todas las revisiones 
con la herramienta AMSTAR-2 de calidad metodoldégica y riesgo de sesgos [24]. 
Se excluyeron sus items 11-12 y 15, aplicables Unicamente a meta-andlisis (segun 
lo preestablecido en nuestro protocolo) y se otorgaron 0,5 puntos a las respuestas 
“parcialmente si” cuando correspondiera, permitiendo asi una puntuaci6n maxima 
de 13 puntos. Para las revisiones living y updated, sdlo se evaluo su version mas 
reciente (para evitar contabilizarlas doblemente). En las revisiones que incluian tan- 
to ensayos controlados aleatorizados como estudios observacionales, la pregunta 9 
(evaluacion del riesgo de sesgo de los estudios individuales) se evalu6 por separado 
para cada tipo de estudio. La lista de evaluacién utilizada se proporciona como 
Apéndice D. 


2.3. Sintesis de datos 


Se calcularon los ratios de abstracts y full texts inspeccionados por autor (como 
medida de la carga de trabajo) y por estudio incluido (como precisién del scree- 
ning). El numero de revisores que participaron en el screening se report6 de forma 
inconsistente entre los estudios y, por tanto, no se utiliz6 en los cdlculos. Se calcul6 
el tiempo de elaboracion de las revisiones con protocolo pre-registrado como la 
diferencia entre la fecha de su protocolo y la fecha de publicacion del primer preprint 
(o la fecha de recepcion en la revista, en el caso de los articulos publicados sin 
preprint disponible). Los tiempos de elaboracion de las revisiones living y updated 
se calcularon como la diferencia entre las fechas de publicacién de cada una de sus 
versiones. Se excluyeron de esta variable las revisiones no pre-registradas debido a 
la heterogeneidad con que se informaron sus fechas de inicio. Se utiliz6 la prueba de 
chi-cuadrado de Pearson para comparar el porcentaje de revisiones rapidas, living, 
que recibieron financiaci6n y que fueron publicadas entre los grupos. El Factor de 
Impacto JCR de las revistas publicadas, los recuentos de citas recibidas, las cargas de 
trabajo de la revisién, los tiempos de elaboracion y las calificaciones AMSTAR-2 
se reportaron como medianas con rangos intercuartilicos (IQR), se representaron 
mediante diagramas box-and-whisker, y se compararon mediante el test de Wilcoxon- 
Mann-Whitney. Se utiliz6 el software R (version 4.0.5) para el calculo estadistico 
y GraphPad Prism 9.2.0 para los graficos. También se proporcion6 una descripcion 
narrativa de las revisiones que utilizaron inteligencia artificial, detallando qué partes 
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del proceso de la revisi6n se automatizaron y qué software fue utilizado, c6mo 
difirieron las calificaciones de AMSTAR-2 entre ellas, y c6mo los autores justificaron 
o qué impacto atribuyeron al uso de las herramientas basadas en IA. 


3. RESULTADOS 


3.1. Btsqueda y seleccién de revisiones 


Como se muestra en la Figura 1, identificamos 7050 registros bibliograficos de 
revisiones sistematicas sobre el COVID-19, descargamos con éxito 3 999 e inspeccio- 
namos manualmente 580 que contenian algunas de nuestras palabras clave. Selec- 
cionamos 20 revisiones, de las cuales localizamos 8 versiones anteriores, sumando 
asi 28 revisiones (0,7 % del total, intervalo de confianza al 95%: 0,47-1,03 %) con 
uso de IA. De las 60 revisiones seleccionadas como controles segtin su fecha de 
publicacion, localizamos otras 4 versiones anteriores, lo que hace un total de 64 
revisiones sin uso de IA. La lista completa de revisiones sistematicas seleccionadas 
se proporciona en formato Excel (Supplementary Material 2 en la publicacion original; 
secciOn “Revisiones incluidas”) con todas las variables extraidas y el desglose de la 
herramienta AMSTAR-2 con cada item evaluado. También se proporciona la lista 
completa de revisiones inspeccionadas manualmente y finalmente no incluidas en 


el trabajo (secci6n “Revisiones excluidas’). 


3.2. Descripcién de las revisiones incluidas 


Las variables extraidas se resumen en la Tabla 1 y pueden visualizarse en la Figura 
2. De las 20 revisiones seleccionadas por utilizar IA, hubo 5 rapid reviews (25%, con 
1 scoping review y 1 rapid evidence map) y 5 revisiones living (25 %). Quince revisiones 
proporcionaron una declaracién de conflictos de intereses, de las cuales 12 (60%) 
declararon haber recibido financiacion externa; 12 (60 %) habian sido publicadas. De 
las 60 revisiones del grupo control, hubo 6 rapid reviews (10 %, con 1 scoping review) 
y 3 revisiones living (5%). Cincuenta y siete revisiones proporcionaron una decla- 
racién de conflicto de intereses, de las cuales 27 (45%) declararon haber recibido 
financiacion externa; 48 (80 %) habian sido publicadas. Los Factores de Impacto JCR 
y los recuentos de citas recibidas mostraron una alta variabilidad en el grupo IA, 
principalmente debido a la inclusién de 3 revisiones publicadas en BMJ [25, 26, 27], 
2 revisiones Cochrane [28, 29] y 1 revision de la revista Lancet [30]. Ademas, sdlo 10 
revisiones en el grupo IA (50%) y 22 en los controles (36 %) registraron previamente 
un protocolo, lo que en conjunto supuso tnicamente 44 registros para el calculo de 
los tiempos de elaboracién. 


3.3. Comparacion de las revisiones con IA con los controles 


El grupo IA incluy6 mas revisiones living que los controles (5/20 vs. 3/60, IC 
del 95% diferencia absoluta 0,2 a 39,8 %, P=0,010), pero no mostr6é diferencias en 
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Figura 1: Seleccion de revisiones sistematicas sobre el Covid-19 que utilizaron IA 
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No indexados en la base de 
datos Unpaywall (n = 249) 


Revisiones excluidas: 
No open access (n = 373) 
Full text no disponible como 
archivo PDF (n = 843) 


Revisiones no obtenidas: 
Duplicados (n = 369) 
Link de descarga roto (n = 147) 


Revisiones que no contenian 
ninguna palabra clave (n = 3419) 


Revisiones inspeccionadas para 
inclusién 
(n = 580) 


Revisiones en grupo control (n = 60) 
Versiones previas obtenidas (n = 4) 


Revisiones que utilizaron IA (n = 20) 
Versiones previas obtenidas (n = 8) 


Figura 1. Diagrama de flujo de las revisiones sistematicas identificadas, cribadas, inspeccionadas para elegibilidad 
e incluidas en nuestro estudio. 


revisiones rapid (5/20 vs. 6/60, IC del 95 % -5,4. a 35,4 %, P=0,092), financiacion (12/20 
vs. 27/60, IC del 95 % -9,9 a 39,9 %, P=0,245) 0 estado de publicacién (12/20 vs. 48/60, 
IC del 95% -43,7 a 3,7 %, P=0,074). Los factores de impacto JCR en las revisiones 
publicadas en el grupo JA fueron significativamente mayores que los controles (me- 
diana [IOR]: 8,9 [3,9-39,9] vs. 3,5 [2,6-5,5], P<0,001); en nimero de citas recibidas no 
mostraron diferencias (0,5 [0,0-13,5] vs. 0,6 [0,0-2,8], P=0,600). 

En cuanto a las mediciones de la carga de trabajo, el grupo IA revisé mas abs- 
tracts por autor (302,2 [126,7-804,3] frente a 140,3 [43,8-378,2], P=0,009) y por estudio 
incluido (189,0 [94,1-365,8] frente a 26.9 [13,7-64,1], P<0,001), mientras que inspec- 
cionaron menos full texts por autor (5,3 [3,7-16,1] vs. 14,0 [6,5-37,2], P=0,005) y por 
estudio incluido (3,8 [2,4-5,3] vs. 3,4 [2,0-6,2], P=0,481). 

No se observaron diferencias en los tiempos de elaboraci6n de las revisiones 
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Tabla 1 Variables extraidas para las revisiones que usaron inteligencia artificial (IA) y los controles 
Grupo IA (1 =20) —_Controles (1 = 60) 
Caracteristicas n (%) n (%) A xv Valor P 
Revisiones tipo rapid 5 (25%) 6 (10%) 15% 2.846 0.092 
Revisiones tipo living 5 (25%) 3 (5%) 20 % 6.667 0.010 
Recibieron financiacién 12 (60%) 27 (45%) 15% 1.351 0.245 
Publicadas 12 (60%) 48 (80%) -20 % 3.2 0.074 
Mediana IQR Mediana IOR Wilcoxon W_ Valor P 
JCR Impact Factor de la revista 9 (4-40) 3 (3-6) 409 <0.001 
Citas recibidas por mes 1 (0-13) 1 (0-3) 647 0.600 
Abstracts inspeccionados 
por autor 302 (127-804) 140 (44-378) 1126 0.009 
por estudio incluido 189 (94-366) 27 (14-64) 1443 <0.001 
Full texts inspeccionados 
por autor 5 (4-16) 14 (7-37) 504.5 0.005 
por estudio incluido 4 (2-5) 3 (2-6) 883.5 0.481 
Tiempo de elaboracién (dias) 74 (48-118) 123 (53-221) 183.5 0.205 
Puntuacién AMSTAR-2 (sobre 13) 8 (5-9) 6 (4-8) 740.5 0.119 


Se utiliz6 la prueba de chi-cuadrado de Pearson para comparar las proporciones de revisiones rapid, living, 
que recibieron financiacién y que fueron publicadas, y el test de Wilcoxon-Mann-Whitney para el resto de 
comparaciones. Las medianas y rangos intercuartilicos (IQR, expresados como cuartil 1 — cuartil 3) se muestran 
redondeados al entero mds cercano. 

A: Diferencias absolutas en puntos porcentuales entre las revisiones que usaron IA y las de control. x”: estadistico 
de la prueba de chi-cuadrado de Pearson. Wilcoxon W: estadistico del test de Wilcoxon-Mann-Whitney (rank-sum 
test). 


prerregistradas (74,0 [47,5-117,5] frente a 123,0 [53,0-221,0], P=0,205). Las puntua- 
ciones medias obtenidas en la evaluacién metodolé6gica AMSTAR-2 (Apéndice D) 
no fueron significativamente mayores en el grupo JA (7,5 [5,3-9,1] vs. 6,3 [3,9-8,0] 
puntos sobre 13, P=0,119), mostrando ambos grupos una alta heterogeneidad de 
resultados, como se puede observar en la Figura 3. En comparacion con los contro- 
les, las revisiones con IA obtuvieron peores resultados en la pregunta 4 (estrategia 
de busqueda de literatura, -12 %) y mejores en la pregunta 6 (extracci6n de datos 
por duplicado, 35%), mientras que mostraron diferencias minimas en la pregunta 5 
(screening por duplicado, 7 %). Ambos grupos obtuvieron las puntuaciones mas bajas 
en las preguntas 7 (proporcionar una lista de estudios excluidos) y 10 (informar sobre 
las fuentes de financiacién de los estudios incluidos). 


3.4. Descripcién narrativa de los usos de la IA 


Seguin la etapa del proceso de revision en la que se utiliz6 IA, podemos clasificar 
las 20 revisiones del grupo IA en tres categorias, como se muestra en la Tabla 2. 
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Figura 2. Caracteristicas de las revisiones incluidas. Diagrama box-and-whisker (de “cajas y bigotes”: las cajas 
encierran los cuartiles Q1—-Q3, sus lineas centrales representan la mediana, y los bigotes se extienden hasta los 
puntos de datos mas lejanos dentro del intervalo de 1,5 IOR). El panel A compara la proporcién de revisiones rapid, 
living, financiadas y publicadas entre los grupos; el panel B presenta los Factores de Impacto JCR 2020 de las revistas 
y los recuentos de citas por mes de cada grupo; los paneles C y D muestran las mediciones de la carga de trabajo de 
los autores: abstracts revisados y full texts inspeccionados, por autor y por estudio incluido; el panel E muestra los 
tiempos medios de elaboracién (en dias) de las revisiones de cada grupo; y el panel F representa sus evaluaciones 
metodolégicas AMSTAR-2. 
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Figura 3. Resumen de la evaluacién metodolégica AMSTAR-2. El grafico de la parte superior muestra las puntuaciones medias obtenidas en cada una de las preguntas 
evaluadas en el grupo de revisiones sistematicas con uso de inteligencia artificial (IA) (barras azules) y en el grupo control (barras naranjas). Las lineas de colores 
de la parte inferior representan visualmente la heterogeneidad de resultados obtenidos en las revisiones sistematicas de ambos grupos (el gradiente representa las 
puntuaciones obtenidas: rojo=4; amarillo=6,5; verde=9). 
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Tabla 2a Uso de IA: Asistencia en la biisqueda bibliogrdfica 


methodological quality 


Epidemiology 


Ref. Titulo Autor Revista Software ~Cédigo 
utilizado abierto? 

[31] Prevalence of Gastrointestinal Symptoms and Fecal Viral Shedding in Patients with Coronavirus Disease Parasa et al. JAMA Network CORD-19 Parcial 
2019 Open 

[32] The influence of comorbidity on the severity of COVID-19 disease: systematic review and analysis Zaki et al. preprint CORD-19 + SI 

Okapi BM25 
[33] The Estimations of the COVID-19 Incubation Period: A Scoping Reviews of the Literature Zaki et al. Journal of Infection CORD-19 + Si 
and Public Health BioBERT 

[34] | Ocular toxicity and Hydroxychloroquine: A Rapid Meta-Analysis Michelson et al. preprint GenesisAI No 

[35] A Systematic Review of the Incubation Period of SARS-CoV-2: The Effects of Age, Biological Sex, and Daley et al. preprint No reportado No 
Location on Incubation Period 

Tabla 2b Uso de IA: Filtrado de ensayos controlados aleatorizados 
Ref. Titulo Autor Revista Software ~Cédigo 
utilizado abierto? 

[36] Impact of remdesivir on 28 day mortality in hospitalized patients with COVID-19: February 2021 Meta- —- Robinson et al. preprint RobotSearch Si 
analysis 

[37] Impact of systemic corticosteroids on hospitalized patients with COVID-19: January 2021 Meta-analysis | Robinson et al. preprint RobotSearch Si 
of randomized controlled trials 

[25] | Prophylaxis against COVID-19: living systematic review and network meta-analysis Bartoszko etal. BMJ RobotSearch Si 

[26] Drug treatments for COVID-19: living systematic review and network meta-analysis Siemieniuket al. BMJ RobotSearch Si 

[38] | Adverse effects of remdesivir, hydroxychloroquine, and lopinavir/ritonavir when used for COVID-19: Izcovich et al. preprint RobotSearch Si 
systematic review and meta-analysis of randomized trials 

[39]  Tocilizumab and sarilumab alone or in combination with corticosteroids for COVID-19: A systematic Zeraatkar et al. preprint RobotSearch Si 
review and network meta-analysis 

[40] Clinical trials in COVID-19 management & prevention: A meta-epidemiological study examining Honarmand etal. Journal of Clinical RobotSearch SI 


SOCVITNSAY “€ 


Tabla 2c Uso de IA: Automatizacién del screening 


Ref. Titulo Autor Revista Software ~Cédigo 
utilizado abierto? 
[41] Impacts of school closures on physical and mental health of children and young people: a systematic review Viner et al. preprint BPPI No 
Reviewer 
[27] Prediction models for diagnosis and prognosis of COVID-19: systematic review and critical appraisal Wynants et al. BMJ BPPI No 
Reviewer 
[28] Rapid, point-of-care antigen and molecular-based tests for diagnosis of SARS-CoV-2 infection (Review) Dinnes etal. | Cochrane Database of EPPI No 
Systematic Reviews Reviewer 
[29] Signs and symptoms to determine if a patient presenting in primary care or hospital outpatient settings Struyf et al. Cochrane Database of BPP No 
has COVID-19 Systematic Reviews Reviewer 
[42] Are medical procedures that induce coughing or involve respiratory suctioning associated with increased Wilson etal. Journal of Hospital BPPI No 
generation of aerosols and risk of SARS-CoV-2 infection? A rapid systematic review Infection Reviewer 
[43] Risk and Protective Factors in the COVID-19 Pandemic: A Rapid Evidence Map Elmore etal. Frontiers in Public SWIFT-Active No 
Health Screener 
[44]  Tocilizumab and Systemic Corticosteroids in the Management of COVID-19 Patients: A Systematic Review  Alkofide etal. | International Journal Abstrackr Si 
and Meta-Analysis of Infectious Diseases 
[30] Physical distancing, face masks, and eye protection to prevent person-to-person transmission of SARS- Chu et al. The Lancet Evidence No 
CoV-2 and COVID-19: a systematic review and meta-analysis Prime 


Tabla 2. Tabla que muestra las diferentes herramientas de inteligencia artificial (IA) que se utilizaron en la elaboracién de revisiones sistematicas sobre COVID-19 (con 
enlaces a aquellas de cddigo abierto), segtin su 4mbito de aplicacién: asistencia en la busqueda bibliogrdfica, filtrado de ensayos controlados aleatorizados (ECA) y 


automatizacion del screening. 


OL 
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Asistencia en la bisqueda bibliografica 


Tres revisiones [31, 32,33] complementaron sus procedimientos de busqueda con 
consultas de tipo “pregunta abierta” en CORD-19 [45], una base de datos sobre el 
COVID-19 estructurada para facilitar el uso de sistemas de mineria de textos y deep- 
learning: Zaki et al. [32] utilizaron un repositorio de GitHub basado en el algoritmo de 
busqueda Okapi BM25; Zaki et al. [33] emplearon BioBERT, un sistema revisado por 
pares [46] y de codigo abierto preentrenado para el andlisis de literatura biomédica; y 
Parasa et al. [31] no proporcionaron detalles sobre el motor de busqueda empleado. 
Ademas, Michelson et al. [34] utilizaron software privado de la empresa GenesisAI 
para producir un “rapid meta-analysis” como prueba de concepto de su producto. 
Daley et al. [35] no proporcionaron ninguna informacion sobre el software empleado. 
Sdlo 2 revisiones en este subgrupo se encontraban publicadas, y ninguna pre-registr6 
un protocolo. La puntuaci6n media en AMSTAR-2 fue de 3,7/13. 


Filtrado de ensayos controlados aleatorizados 


Siete articulos [25, 26, 36, 37, 38, 39, 40] emplearon RobotSearch, un software 
revisado por pares [47] y de cddigo abierto para identificar, de entre las referencias 
bibliograficas proporcionadas por el usuario, aquellas correspondientes a ensayos 
controlados aleatorizados (ECA). Se basa en una red neuronal entrenada con datos 
de las revisiones de Cochrane y destaca por su facilidad de uso (no requiere ins- 
talaciOn) y flexibilidad (ya que permite diferentes niveles de sensibilidad, incluido 
uno destinado especificamente a revisiones sistematicas, asi como la integracién con 
otros scripts). 

En nuestra muestra, RobotSearch se utiliz6 particularmente con frecuencia en 
revisiones living 0 parcialmente automatizadas. Dos de las revisiones que utiliza- 
ron RobotSearch fueron la de Bartoszko et al. [25] un meta-andlisis en red sobre la 
profilaxis del COVID-19, y Siemieniuk et al. [26], un living meta-analysis de ensayos 
aleatorizados para guiar las recomendaciones de la Organizaci6n Mundial de la 
Salud (OMS) sobre la terapéutica del COVID-19, de los cuales Izcovich et al. [38] 
y Zeraatkar et al. [39] son subestudios separados. Ambos forman parte del proyecto 
“BM] Rapid Recommendations” y publican sus conclusiones y andlisis preliminares en 
un sitio web en constante actualizacién. La puntuacién media en AMSTAR-2 fue de 
75/13; 


Automatizacion del screening 


Encontramos ocho articulos [27, 28, 29, 30, 41, 42, 43, 44] que hacian uso de 
procedimientos de screening potenciados por IA. Cinco de ellos [27, 28, 29, 41, 42] 
utilizaron EPPI Reviewer, una plataforma web (de acceso tipo shareware) para asistir 
en la elaboracién de todo tipo de revisiones sistematicas. Ofrece una gran variedad 
de funciones, desde la gestion bibliografica hasta facilitar el trabajo colaborativo, asi 
como la capacidad de sugerir otros estudios relevantes, la agrupaci6n automatica de 
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articulos y la mineria de textos. En particular, las revisiones incluidas utilizaron su 
modulo “SGDClassifier” para priorizar el screening de articulos con mas probabilidad 
de ser incluidos de acorde con las decisiones previas del usuario. Como resultado, 
tanto Wynants et al. [27] como dos revisiones Cochrane [28, 29] citan una reduccién 
del 80 % en la carga de screening gracias a esta herramienta. 

Otras dos revisiones utilizaron técnicas de automatizacion del screening engloba- 
das en plataformas de asistencia a la elaboracién de revisiones sistematicas: SWIFT- 
Active Screener [48] en Elmore et al. [43], configurado para asegurar un recall minimo 
(porcentaje de captura de estudios relevantes) como criterio de detencién del scree- 
ning; y Evidence Prime de Chu et al. [30] para verificar y complementar el screening 
manual. Por ultimo, Alkofide et al. [44] utilizaron Abstrackr, el unico software de 
cdédigo abierto en esta categoria, que utiliza el feedback de los articulos previamente 
seleccionados y rechazados por el usuario para guiar el proceso de screening. Las 
evaluaciones de esta herramienta publicadas en la literatura [49] sugieren un gran 
ahorro de trabajo en la produccion de revisiones sistematicas a costa de una tasa de 
falsos negativos del 0,1 %. 

Entre las revisiones analizadas en este estudio, este subgrupo present6 las pun- 
tuaciones mas altas en la herramienta de valoraci6n AMSTAR-2 (9,1/13), destacan- 
do las menciones de dos revisiones Cochrane [28, 29] (12 puntos) y un meta-andlisis 
rapido [30] publicado en The Lancet (10,5 puntos). A diferencia de las revisiones 
de las otras categorias, que priorizaron la profundidad de la busqueda, el uso de 
herramientas basadas en JA en este subgrupo estuvo motivado por la gran carga 
en screening a la que se enfrentaron los revisores: citando a Dinnes et al. [28], «se 
necesitaba un enfoque mas eficiente para procesar la creciente produccién cientifica sobre el 
COVID-19». 


4. DISCUSION 


En este trabajo se evalu si los potenciales beneficios de implementar IA en la 
elaboracién de revisiones sistematicas se han visto reflejados en las revisiones sobre 
el COVID-19. Encontramos que la JA se utiliz6 raramente, apareciendo sdlo en el 
0,7 % de las revisiones estudiadas, pero que se asoci6 significativamente con una 
reduccion de la carga de trabajo en screening de los autores y la publicacién en 
revistas con mayor factor de impacto. Ser una revision living se asoci6 con el uso 
de IA, siendo los usos mds comunes la optimizacion del screening (priorizando los 
estudios con alta probabilidad de ser relevantes) y la selecci6n de ensayos controla- 
dos aleatorizados. 

Como limitacién de nuestro estudio, destacamos su baja potencia estadistica 
debido al escaso numero de revisiones que utilizaron IA. Anticipando la limitada 
disponibilidad de revisiones con IA, adoptamos un procedimiento de screening muy 
sensible, procesando mas de 7000 referencias bibliogrdficas de revisiones sistema- 
ticas sobre el COVID-19 (combinando la consulta de expertos para la seleccién de 
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palabras clave con un potente motor de busqueda), y elegimos un ratio de 3:1 para el 
tamafio del grupo de control para minimizar el riesgo de errores estadisticos de tipo 
II. El uso de L-OVE como base de datos principal permiti6 acceder a multiples fuen- 
tes bibliograficas relevantes y actualizadas de forma sistematica y automatizable; sin 
embargo, nuestra estrategia de busqueda podria mostrar una menor sensibilidad 
para los informes institucionales y whitepapers, que a menudo no son indexados 
por las bases de datos tradicionales. El potencial impacto de errores puntuales en 
la descarga de revisiones y la exclusion de las revisiones no open-access de nuestro 
estudio es incierto; su impacto en la generalizaci6n de nuestros resultados debe 
interpretarse teniendo en cuenta la gran diversidad de fuentes secundarias accesi- 
bles a través de L-OVE y la alta accesibilidad a la investigaci6n sobre el COVID-19 
durante la pandemia. Ademas, el uso de las fechas de publicacién como variable de 
emparejamiento permiti6 una seleccién de controles guiada por nuestro script (para 
minimizar el riesgo de sesgos), pero impidi6 el uso de otras variables de control 
deseables, como el tamafio o el enfoque tematico de las revisiones. 

Debemos resaltar que el cdlculo de la carga de screening “por autor” en lugar 
de “por revisor que participa en el cribado” puede infraestimar estas variables en 
revisiones con equipos grandes (cuando no todos sus autores participan en el cri- 
bado). Tener mayor numero de autores también podria relacionarse con la dispo- 
nibilidad de recursos de los equipos, y por tanto con el acceso a asesoramiento y 
expertos en IA. Asimismo, los grupos con més recursos y con apoyo de expertos 
en IA podrian contar con mayores facilidades de acceso a revistas bien indexadas, 
lo que podria sesgar los andlisis del factor de impacto a favor de la IA. Por otra 
parte, la evaluacién con AMSTAR-2 se realiz6 inevitablemente sin poder cegar a 
los evaluadores en cuanto al uso 0 no de IA, lo cual, dada la subjetividad de ciertos 
aspectos de la evaluacién metodol6gica, podria haber influido en sus resultados. Por 
ultimo, el uso de los recuentos de citas para medir el impacto de las revisiones es un 
abordaje imperfecto con deficiencias conocidas, como el “citation bias” (los resultados 
estadisticamente significativos suelen citarse mas que otros) o la propia autoridad 
de los autores [50] y puede particularmente subestimar el impacto de las revisiones 
publicadas mas recientemente. 

En promedio, un equipo de 5 revisores tarda 15 meses en completar una revisiOn 
sistematica tradicional [51] con tasas de errores estimadas en torno al 10% [52]. 
Enfrentarse a la pandemia del COVID-19 exigia contar con revisiones sistematicas 
sdlidas con urgencia, ya que cualquier retraso suponia un coste tanto en términos 
de vidas perdidas como en dafios econdmicos. Sin embargo, a pesar del crecimiento 
exponencial que han experimentado los campos de la IA y el machine-learning du- 
rante los ultimos afios, estos desempefiaron un papel sorprendentemente limitado 
en las revisiones sistematicas sobre el COVID-19. Nuestras conclusiones concuerdan 
con las de trabajos anteriores [14] que sugieren que los beneficios que la IA puede 
proporcionar en la realizacidn de revisiones sistematicas son desconocidos para la 


mayoria de los revisores, y la relativa heterodoxia de sus métodos podria dificultar 
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inicialmente su aceptacion por parte de la comunidad cientifica. El software de cé- 
digo abierto, generalmente mas propenso a ser adoptado en dichos circulos, jugara 
un papel esencial en este aspecto. 

Nuestra descripcion narrativa de las revisiones incluidas en este estudio mostr6 
que ninguna hizo uso simultadneo de mds de una herramienta de IA. Un enfoque mas 
cohesivo, que integre la IA en cada paso del proceso de revision, ahorraria tiempo 
a los revisores que desearan interconectar diferentes herramientas con formatos a 
veces incompatibles. Las herramientas de asistencia semiautomatizadas fueron una 
de las areas donde la IA mostr6 una mayor adopcion, y la variedad de opciones de 
software (como EPPI Reviewer, ya adoptado como herramienta oficial de produccién 
de revisiones Cochrane) fue mayor. Por el contrario, la automatizaci6n completa sdlo 
fue empleada por RobotSearch (una herramienta para filtrar ensayos aleatorizados 
ampliamente evaluada en la literatura), lo que sugiere que la adopcién de soluciones 
cada vez mas automatizadas puede requerir la produccion previa de evaluaciones 
mas detalladas de sus costes potenciales (tanto en pérdida de articulos como en 
riesgo de sesgos) en balance con sus aportaciones en productividad. 


Conclusién 


La necesidad de automatizacion en las sintesis de evidencia es obvia, ya que la 
carga de trabajo de los revisores crece tan rapido como las ciencias biomédicas. La 
adopcién de nuevas tecnologias puede llevar tiempo, pero aprovechar el potencial 
de la IA en la elaboraci6n de revisiones sistematicas debe ser una prioridad. En el 
futuro, la IA debe incorporarse a las revisiones sistematicas como el siguiente paso 
para facilitar la toma de decisiones de manera mas basada en la evidencia, rapida y 


precisa. 
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Abstract 


Objectives: A rapidly developing scenario like a pandemic requires the prompt production of high-quality systematic reviews, which 
can be automated using artificial intelligence (AI) techniques. We evaluated the application of AI tools in COVID-19 evidence syntheses. 

Study Design: After prospective registration of the review protocol, we automated the download of all open-access COVID-19 system- 
atic reviews in the COVID-19 Living Overview of Evidence database, indexed them for Al-related keywords, and located those that used AI 
tools. We compared their journals’ JCR Impact Factor, citations per month, screening workloads, completion times (from pre-registration to 
preprint or submission to a journal) and AMSTAR-2 methodology assessments (maximum score 13 points) with a set of publication date 
matched control reviews without AI. 

Results: Of the 3,999 COVID-19 reviews, 28 (0.7%, 95% CI 0.47—1.03%) made use of AI. On average, compared to controls (n = 64), 
AI reviews were published in journals with higher Impact Factors (median 8.9 vs. 3.5, P < 0.001), and screened more abstracts per author 
(302.2 vs. 140.3, P = 0.009) and per included study (189.0 vs. 365.8, P < 0.001) while inspecting less full texts per author (5.3 vs. 14.0, 
P = 0.005). No differences were found in citation counts (0.5 vs. 0.6, P = 0.600), inspected full texts per included study (3.8 vs. 3.4, 
P = 0.481), completion times (74.0 vs. 123.0, P = 0.205) or AMSTAR-2 (7.5 vs. 6.3, P = 0.119). 

Conclusion: AI was an underutilized tool in COVID-19 systematic reviews. Its usage, compared to reviews without AI, was associated 
with more efficient screening of literature and higher publication impact. There is scope for the application of AI in automating systematic 
reviews. © 2022 The Authors. Published by Elsevier Inc. This is an open access article under the CC BY-NC-ND license (http:// 
creativecommons.org/licenses/by-nc-nd/4.0/). 


Keywords: Artificial intelligence; Systematic review; COVID-19; Automation; Research design; Bibliometrics 
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What is new? 


Key findings 
e The use of artificial intelligence (AI) in COVID-19 
systematic reviews was very low. 


e COVID-19 reviews using AI tools showed higher 
publication impact and workload savings. 


What this adds to what was known? 

e Semi-automated screening and RCT filtering are 
the most notable use-cases of AI tools in evidence 
synthesis. 


e There is a lack of systematic review tools cohe- 
sively integrating AI. 


What is the implication and what should change 

now? 

e There is scope for the application of AI in auto- 
mating systematic reviews going forward. 


1. Introduction 


Evidence-based medicine depends on the production of 
timely systematic reviews to guide and update health care 
practice and policies [1]. This is a resource-intensive under- 
taking, requiring teams of multiple reviewers to interrogate 
numerous repositories and databases, screen through thou- 
sands of potentially relevant citations and articles, extract 
the pertinent data from the selected studies, and then pre- 
pare cohesive summaries of the findings [2,3]. In the 
context of the SARS-CoV2/COVID-19 pandemic, methods 
to speed up this lengthy process were urgently needed [4,5]. 

Systematic evidence synthesis relies on robust and stan- 
dardized procedures to achieve dependable results. Howev- 
er, the call to accelerate research output during the 
pandemic led to a decrease on reviews’ methodological 
quality [6,7] and the ascend of “rapid reviews” [8,9] 
(which shorten the usual timeframes by sacrificing on 
search depth, screening robustness or data extraction and 
at the expense of increased risk of errors). Are these un- 
avoidable tradeoffs for timelier results? 

Instead, artificial intelligence (AI) based solutions (that 
automate parts of the workflow by mimicking human 
problem-solving, comprising machine-learning, nature lan- 
guage processing, data mining and other subfields) [10] are 
now available to either complement or substitute human ef- 
forts with limited risk of bias [11—13], and have been pre- 
viously (but scarcely) [14] employed in evidence synthesis 
to enhance screening [15] and data extraction [16,17]. Their 
aims are to shorten production times, allow for broader 
screenings of the literature and reduce reviewers’ work- 
loads without compromising on methodological quality. 


Here, we evaluated the use of AI techniques among 
COVID-19 evidence syntheses to empirically determine 
whether, compared to COVID-19 evidence syntheses 
without AI, they impacted on the production, the quality, 
and the publication of systematic reviews. 


2. Materials and methods 


This methodological study [18] is reported following 
PRISMA 2020 guidelines [19] (checklist provided as 
Supplementary material 1A), and its protocol was prospec- 
tively registered at Open Science Forum Registries (DOI 
10.17605/OSF.1IO0/HS5DAW) [20]. 


2.1. Search and selection of reviews 


We considered for inclusion all COVID-19 related sys- 
tematic reviews that could have made use of any AI tool (ma- 
chine learning, deep learning, or natural language 
processing) to accelerate, improve or complement any aspect 
of the review conduct (search, screening, data extraction and 
synthesis). We implemented a script (available at DOI 10. 
506 I/dryad.9kd5 1c5j6) [21] to process all COVID-19 biblio- 
graphic references registered in the COVID-19 Living Over- 
view of Evidence (L:OVE) database [22], filtering articles 
classified as “‘systematic review” between December Ist, 
2019 and August 15th, 2021, and then querying the ““Unpay- 
wall” database [23] for every extracted DOI to obtain a JSON 
record with download links. The process was repeated three 
times since the publication of our protocol to reduce the loss 
of articles due to server-side errors (last searched on August 
17th, 2021). 

To capture reviews which deployed AI, we constructed a 
list of keywords with high probability of appearing in papers 
with AI tools (Supplementary Material 1B). We indexed 
every downloaded file with the OpenSemanticSearch search 
engine, running on a local Linux virtual machine. Every file 
that matched any of our keywords was manually inspected 
independently by two authors (JRTH and RFL). Pre-prints 
and non-English articles were included. The only exclusion 
criterion applied was non-open access status, due to the need 
to evaluate the methods section of each included review. To 
create a comparison group with sufficient statistical power 
of reviews without AI, for each included review we used 
the obtained records to randomly select three controls with 
the same publication date (within a l-day margin if not 
enough articles were available for a given date). In addition, 
we located and included for analysis all previous versions of 
reviews labeled as living or “‘updated’’. 


2.2. Data extraction 


The following data were manually extracted indepen- 
dently by two authors (JRTH and RFL) from each review: 
type of review (as described by its authors: standard, rapid/ 
scoping, living, or update of a prior version); disclosed 
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Bibliographic records identified from 
the COVID-19 Living OVerview of 
Evidence (L:OVE) 

(n = 7050) 


Identification 


Reviews assessed for availability 
(n = 5731) 


Reviews sought for download 
(n = 4515) 


Reviews screened 
(n = 3999) 


Reviews assessed for eligibility 
(n = 580) 


Reviews using Al (n = 20) 
Prior versions located (n = 8) 


Bibliographic records removed: 
No DOI provided (n = 795) 
Duplicates (n = 275) 

Not indexed in the Unpaywall 
database (n = 249) 


Reviews excluded: 
Non-open access (n = 373) 
Full text not available as a PDF 
file (n = 843) 


Reviews not retrieved: 
Duplicates (n = 369) 
Broken link (n = 147) 


Reviews not matching any search 
term (n = 3419) 


Reviews used as controls (n = 60) 
Prior versions located (n = 4) 


Fig. 1. Flowchart of included reviews: Flowchart of records obtained, screened, assessed for eligibility, and included in our study. 


funding and conflicts of interest information; publication 
status, 2020 Journal Citation Reports (JCR) Impact Factor 
of the publishing journal and number of citations received 
(up to August 17th, 2021); number of abstracts screened, 
full texts reviewed and included studies; number of authors 
and of reviewers participating in the screening; and dates of 
protocol registration (if available) and of the review’s 
earliest version. For living and updated reviews, we 
computed the increase in records screened and included be- 
tween each of their versions and attributed their citation 
count to the newest one (to avoid double counting). Excel 
was used to record all variables. 

Three authors (JRTH and REL, assisted by CAP) graded 
all reviews with the AMSTAR-2 quality appraisal and risk 
of bias rating [24]. We excluded items 11-12 and 15, which 
apply to meta-analyses (as pre-specified by our protocol) 
and gave 0.5 points for “‘partial YES” answers when appli- 
cable, making for a maximum score of 13 points. For living 
and updated reviews, we only evaluated their most recent 
version (to avoid double counting). For reviews that 


included both randomized controlled trials and observa- 
tional studies, question 9 (assessment of the risk of bias 
of individual studies) was graded separately for each study 
type. The list of the quality items evaluated is provided as 
Supplementary material 1C. 


2.3. Data synthesis 


We calculated the ratios of abstracts screened and full texts 
inspected per author (as workload measurement) and per 
included study (screening precision). The number of re- 
viewers participating in the screening was reported inconsis- 
tently between studies and was therefore not used in the 
calculations. We calculated the completion time of the pre- 
registered reviews as the difference between their protocol’s 
date and the first pre-print’s date of publication (or reception 
date at the journal, for published articles with no pre-prints 
available). Living and updated reviews’ completion times 
were calculated as the difference between the publication 
dates of each of their versions. We excluded non pre- 
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Table 1. Extracted variables for artificial intelligence (Al) and control reviews: We used Pearson’s chi-square test to compare the proportions of rapid, 
living, funded, and published reviews, and the Wilcoxon—Mann—Whitney test for the rest of the comparisons. Medians and IQR (Q1-Q3) are 


rounded to the nearest integer 


Al group (n = 20) 


Characteristics n (%) 
Rapid reviews 5 (25%) 
Living reviews 5 (25%) 
Received funding 12 (60%) 
Published 12 (60%) 
Median IQR 

Journals’ JCR Impact Factor 9 (4—40) 
Citations per month 1 (O—13) 
Abstracts screened 

Per author 302 (127-804) 

Per included study 189 (94—366) 
Full texts inspected 

Per author 5 (4-16) 

Per included study (2—5) 
Days to completion 74 (48-118) 
AMSTAR-2 rating 8 (5-9) 


Controls (n = 60) 


n (%) A 2 P-value 
(10%) 15% 2.846 0.092 
(5%) 20% 6.667 0.010 
27 (45%) 15% 1.351 0.245 
48 (80%) —20% 3.200 0.074 
Median 1QR Wilcoxon W P-value 
3 (3-6) 409.0 <0.001 
1 (O—3) 647.0 0.600 
140 (44—378) 1,126.0 0.009 
27 (14-64) 1,443.0 <0.001 
14 (7-37) 504.5 0.005 
3 (2—6) 883.5 0.481 
123 (53-221) 183.5 0.205 
6 (4—8) 740.5 0.119 


A, absolute differences in percentage points between Al and control reviews; x2, test statistic for Pearson’s chi-square test; Wilcoxon W, test 


statistic for the Wilcoxon—Mann—Whitney rank sum test. 


registered reviews from this metric due to heterogeneity in the 
reporting of their starting dates. We used Pearson’s chi-square 
test to compare the percentage of rapid, living, funded, and 
published reviews between groups. Publishing journals’ JCR 
Impact Factor, citation counts, screening workloads, comple- 
tion times and AMSTAR-? ratings were presented as medians 
with interquartile ranges (IQR), represented using box-and- 
whisker diagrams and compared using the Wilcox- 
on—Mann—Whitney test. R version 4.0.5 was used for statis- 
tical computing, and GraphPad Prism 9.2.0 for graphing. We 
also provided a narrative description of reviews using artificial 
intelligence, detailing which parts of the review process were 
automated and what software they used, how the AMSTAR-2 
ratings differed among them, and how authors justified or what 
impact they attributed to the use of AI tools. 


3. Results 
3.1. Search and selection of reviews 


As outlined in Figure 1, we identified 7,050 biblio- 
graphic records of COVID-19 systematic reviews, success- 
fully downloaded 3,999, and manually inspected 580 that 
matched some of our keywords. We selected 20 reviews, 
of which there were 8 prior versions, making a total of 
28 reviews (0.7% of the total, 95% CI 0.47—1.03%) with 
use of AI. Of the 60 articles selected as publication-date- 
matched controls, we located another 4 prior versions, mak- 
ing a total of 64 articles without use of AI. The complete 
list of selected articles is provided as an Excel document 


(Supplementary Material 2, sheet “Included reviews’’) with 
all the extracted variables and the AMSTAR-2 quality ap- 
praisal’s breakdown for each question. The full list of 
manually inspected and finally discarded articles is also 
provided (sheet “Excluded reviews”’). 


3.2. Description of the included reviews 


Extracted variables are summarized in Table | and can 
be visualized in Figure 2. Of the 20 reviews selected for us- 
ing AI, there were five rapid reviews (25%, with one 
scoping review and one rapid evidence map) and five living 
reviews (25%). Fifteen reviews provided a conflicts of in- 
terest statement, of which 12 (60%) declared having 
received external funding; 12 (60%) were published. Of 
the 60 control reviews, there were 6 rapid reviews (10%, 
with one scoping review) and three living reviews (5%). 
Fifty-seven reviews provided a conflicts of interest state- 
ment, of which 27 (45%) declared having received external 
funding; 48 (80%) were published. JCR Impact Factors and 
citation counts showed high variability in the AI group, 
mainly due to the inclusion of three BMJ [25—27], two Co- 
chrane [28,29] and one Lancet [30] reviews. Furthermore, 
only 10 reviews in the AI group (50%) and 22 in the con- 
trols (36%) pre-registered a protocol, making for a total of 
44 data points for the completion times’ calculation. 


3.3. Comparison of AI reviews with controls 


The AI group included a higher proportion of living re- 
views than the controls (5/20 vs. 3/60, 95% CI absolute 
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Fig. 2. Characteristics of the included reviews: Box-and-whisker diagram (the boxes enclose the Q1-Q3 quartiles, their middle lines represent the 
median, and whiskers extend to the furthest data points within 1.5 IQR). Panel A compares the proportion of rapid, living, funded, and published 
reviews between groups; Panel B presents the journals’ 2020 JCR Impact Factors and citation counts of each group; Panels C and D show authors’ 
workload measurements: abstracts screened and full-texts inspected, per author and per included study; Panel E exhibits the average times to 
completion (in days) of the reviews in each group; and Panel F represents their measured AMSTAR-2 ratings. 


difference 0.2—39.8%, P = 0.010), while showing no differ- 
ences in rapid reviews (5/20 vs. 6/60, 95% CI —5.4 to 35.4%, 
P = 0.092), funding (12/20 vs. 27/60, 95% CI —9.9 to 39.9%, 
P = 0.245) or publication status (12/20 vs. 48/60, 95% CI 
—43.7 to 3.7%, P = 0.074). JCR impact factors among pub- 
lished reviews in the AI group were significantly higher than 
the controls (median [IQR]: 8.9 [3.9—39.9] vs. 3.5 [2.6—5.5], 


P < 0.001); citation counts showed no differences (0.5 
[0.0—13.5] vs. 0.6 [0.0—2.8], P = 0.600). 

Concerning the workload measurements, the AI group 
screened more abstracts per author (302.2 [126.7—804.3] 
vs. 140.3 [43.8—378.2], P = 0.009) and per included study 
(189.0 [94.1—365.8] vs. 26.9 [13.7—-64.1], P < 0.001), 
while inspecting less full texts per author (5.3 [3.7—16.1] 
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Fig. 3. AMSTAR-2 methodology appraisals’ summary: The graph on the top shows the average ratings obtained in each of the evaluated questions 
by the reviews using Artificial Intelligence (Al) techniques (blue bars) and by the control group (orange bars). The colored bars on the bottom pro- 
vide a visual representation of the quality appraisal’s heterogeneity in both groups (a gradient was used to represent the obtained scores: red = 4; 


yellow = 6.5; green = 9). 


vs. 14.0 [6.5—37.2], P = 0.005) and as many per included 
study (3.8 [2.4—5.3] vs. 3.4 [2.0—6.2], P = 0.481). 

We observed no differences in the pre-registered re- 
views’ times to completion (74.0 [47.5—117.5] vs. 123.0 
[53.0—221.0], P = 0.205). The average scores obtained 
in the AMSTAR-2? risk of bias rating were not significantly 
higher in the AI group (7.5 [5.3—9.1] vs. 6.3 [3.9—8.0] 
points out of 13, P = 0.119), with both groups showing 
high heterogeneity of results as shown in Figure 3. 
Measured against the controls, the AI reviews scored worse 
on question 4 (literature search strategy, — 12%) and better 
on question 6 (data extraction in duplicate, 35%), while 
showing minimal differences on question 5 (duplicate 
screening, 7%). Both groups scored the lowest on questions 
7 (providing a list of excluded studies) and 10 (reporting on 
the sources of funding of the included studies). 


3.4. Narrative description of the uses of AI in the 
included reviews 


According to the step of the review process where AI 
was used, we can classify the 20 reviews in the AI group 
in three categories, as shown in Table 2. 


3.4.1. Search process 

Three reviews [31—33] complemented their search pro- 
cedures with open-ended question queries on CORD-19 
[45], an open dataset of COVID-19 related articles struc- 
tured to facilitate the use of text mining and machine 
learning systems: Zaki et al. [32] used a GitHub repository 


based on the Okapi BM25 search algorithm; Zaki et al. [33] 
employed BioBERT, a peer-reviewed [46] and open-source 
text mining system pre-trained for biomedical content anal- 
ysis; and Parasa et al. [31] provided no details on the search 
engine employed. Additionally, Michelson et al. [34] used 
proprietary software from the “GenesisAI’’ company to 
produce a “rapid meta-analysis’? as proof-of-concept of 
their product. Daley et al. [35] disclosed no information 
on the software employed. Only two reviews in this sub- 
group were published, and none registered a protocol. 
The average AMSTAR-2 score was 3.7/13. 


3.4.2. Filtering of randomized controlled trials 

Seven articles [25,26,36—40] employed RobotSearch, a 
peer-reviewed [47] and open-source software to identify 
randomized controlled trials (RCT) from a citations list. 
It is based on a neural network trained with data from Co- 
chrane’s reviews and stands out for its ease of use (no 
installation is required) and flexibility (as it allows for 
different levels of sensitivity, including one developed spe- 
cifically for systematic reviews, as well as integration with 
other scripts). 

In our sample, RobotSearch was often incorporated in 
the workflows of living or partially automated reviews. 
Two of the reviews that made use of RobotSearch were 
Bartoszko et al. [25], a network meta-analysis of the evi- 
dence for COVID-19 prophylaxis, and Siemieniuk et al. 
[26], a living meta-analysis of randomized trials to inform 
World Health Organization (WHO) Living Guidelines on 
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Table 2. Al tools used in COVID-19 reviews: Table showing the different artificial intelligence (Al) tools that have been used in the elaboration of 
COVID-19 systematic reviews, according to their area of application: search assistance, randomized controlled trials (RCT) filtering and 
screening automation 


Ref. 
[31] 


[32] 


[33] 


[34] 


[35] 


[36] 


[37] 


[25] 


[26] 


[38] 


[39] 


Title 


Prevalence of 
Gastrointestinal 
Symptoms and Fecal 
Viral Shedding in 
Patients with Coronavirus 
Disease 2019 


The influence of 
comorbidity on the 
severity of COVID-19 
disease: systematic 
review and analysis 


The Estimations of the 
COVID-19 Incubation 
Period: A Scoping 
Reviews of the Literature 


Ocular toxicity and 
Hydroxychloroquine: A 
Rapid Meta-Analysis 

A Systematic Review of the 
Incubation Period of 
SARS-CoV-2: The Effects 
of Age, Biological Sex, 
and Location on 
Incubation Period 


Impact of remdesivir on 
28 day mortality in 
hospitalized patients with 
COVID-19: February 
2021 Meta-analysis 


Impact of systemic 
corticosteroids on 
hospitalized patients with 
COVID-19: January 2021 
Meta-analysis of 
randomized controlled 
trials 


Prophylaxis against COVID- 
19: living systematic 
review and network meta- 
analysis 


Drug treatments for COVID- 
19: living systematic 
review and network meta- 
analysis 


Adverse effects of 
remdesivir, 
hydroxychloroquine, and 
lopinavir/ritonavir when 
used for COVID-19: 
systematic review and 
meta-analysis of 
randomized trials 


Tocilizumab and sarilumab 
alone or in combination 
with corticosteroids for 
COVID-19: A systematic 
review and network meta- 
analysis 


Authors 


Parasa et al. 


Zaki et al. 


Zaki et al. 


Michelson 
et al. 


Daley et al. 


Robinson 
et al. 


Robinson 
et al. 


Bartoszko 
et al. 


Siemieniuk 
et al. 


Izcovich 
et al. 


Zeraatkar 
et al. 


Journal 


JAMA Network 
Open 


Pre-print 


Journal of 
Infection and 
Public Health 


Pre-print 


Pre-print 


Pre-print 


Pre-print 


BMJ 


BMJ 


Pre-print 


Pre-print 


Al used in... 


Search 


Search 


Search 


Search 


Search 


RCT filtering 


RCT filtering 


RCT filtering 


RCT filtering 


RCT filtering 


RCT filtering 


Software used 
CORD-19 


CORD-19 + 
Okapi BM25 


CORD- 


19 + BioBERT 


GenesisAl 
(formerly Evid 
Science) 


Not reported 


RobotSearch 


RobotSearch 


RobotSearch 


RobotSearch 


RobotSearch 


RobotSearch 


Is open 
source? 


Partially 


Yes 


Yes 


No 


No 


Yes 


Yes 


Yes 


Yes 


Yes 


Yes 


(Continued) 
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Table 2. Continued 


Ref. 
[40] 


[41] 


[27] 


[28] 


[29] 


[42] 


[43] 


[44] 


[30] 


Title 


Clinical trials in COVID-19 
management & 
prevention: A meta- 
epidemiological study 
examining 
methodological quality 


Impacts of school closures 
on physical and mental 
health of children and 
young people: a 
systematic review 

Prediction models for 
diagnosis and prognosis 
of COVID-19: systematic 
review and critical 
appraisal 


Rapid, point-of-care 
antigen and molecular- 
based tests for diagnosis 
of SARS-CoV-2 infection 
(Review) 


Signs and symptoms to 
determine if a patient 
presenting in primary 
care or hospital 
outpatient settings has 
COVID-19 


Are medical procedures 
that induce coughing or 
involve respiratory 
suctioning associated 
with increased generation 
of aerosols and risk of 
SARS-CoV-2 infection? A 
rapid systematic review 


Risk and Protective Factors 
in the COVID-19 
Pandemic: A Rapid 
Evidence Map 


Tocilizumab and Systemic 
Corticosteroids in the 
Management of COVID- 
19 Patients: A 
Systematic Review and 
Meta-Analysis 


Physical distancing, face 
masks, and eye 
protection to prevent 
person-to-person 
transmission of SARS- 
CoV-2 and COVID-19: a 
systematic review and 
meta-analysis 


Authors 


Honarmand 
et al. 


Viner 


et al. 


Wynants 
et al. 


Dinnes et al. 


Struyf et al. 


Wilson et al. 


Elmore et al. 


Alkofide et al. 


Chu et al. 


Journal 


Journal of 
Clinical 
Epidemiology 


Pre-print 


BMJ 


Cochrane 
Database of 
Systematic 
Reviews 


Cochrane 
Database of 
Systematic 
Reviews 


Journal of 
Hospital 
Infection 


Frontiers in 
Public Health 


International 
Journal of 
Infectious 
Diseases 


The Lancet 


Al used in... 
RCT filtering 


Screening 


Screening 


Screening 


Screening 


Screening 


Screening 


Screening 


Screening 


Software used 
RobotSearch 


EPPI-Reviewer 


EPPI-Reviewer 


EPPI-Reviewer 


EPPI-Reviewer 


EPPI-Reviewer 


SWIFT-Active 
Screener 


Abstrackr 


Evidence Prime 


Is open 
source? 


Yes 


No 


No 


No 


No 


No 


No 


Yes 


No 
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drugs for treatment of COVID-19, of which Izcovich et al. 
[38] and Zeraatkar et al. [39] are separate sub-studies. Both 
are part of the “BMJ Rapid Recommendations” project and 
maintain a website where summaries of the evidence avail- 
able and interim analyses are published. The average 
AMSTAR-? score was 7.5/13. 


3.4.3. Screening of titles and abstracts 

We found eight articles [27—30,41—44] that made use of 
Al-powered screening procedures. Five of them 
[27—29,41,42] used EPPI-Reviewer, a web-based tool 
(distributed as shareware) to assist in the elaboration of 
all kinds of literature reviews. It offers a wide variety of 
features, from bibliographic management to collaborative 
working, as well as study identification capabilities, auto- 
matic clustering of articles, and text mining. In particular, 
the included reviews used its ““SGCClassifier”” module to 
prioritize the screening of articles more likely to be 
included. As a result, both Wynants et al. [27] and two Co- 
chrane reviews [28,29] quoted a 80% reduction in the 
screening burden due to this tool. 

Similar screening automation techniques from system- 
atic reviews’ elaboration platforms were used by other 
two articles: SWIFT-Active Screener [48] by Elmore 
et al. [43], which was set to achieve a certain study recall 
objective as the screening’s stopping criterion; and Evi- 
dence Prime by Chu et al. [30], to double-check the 
screening process. Finally, Alkofide et al. [44] used Ab- 
strackr, the only open-source software in this category, 
which uses feedback from previously selected and rejected 
articles to guide the screening process. Evaluations of this 
tool published in the literature [49] suggest high workload 
savings in the production of systematic reviews at the cost 
of 0.1% false negative rates. 

Among the reviews analyzed in this study, this subgroup pre- 
sented the highest scores in the AMSTAR-2 appraisal tool (9.1/ 
13), with the notable mentions of two Cochrane reviews [28,29] 
(12 points) and a rapid meta-analysis [30] published in the Lan- 
cet (10.5 points). Contrary to reviews in the other categories that 
prioritized search depth, the use of Al-powered tools in this sub- 
group was motivated by the screening burden faced by the re- 
viewers: quoting Dinnes et al. [28], “a more efficient 
approach [was needed] to keep up with the rapidly increasing 
volume of COVID-19 literature”. 


4. Discussion 


We evaluated if the potential benefits of deploying AI in 
evidence syntheses have been realized in COVID-19 re- 
views. We found that AI was rarely utilized, appearing 
in only 0.7% of the studied reviews, but that it was signif- 
icantly associated with reductions in authors’ screening 
workload and publication in journals with higher Impact 
Factor. Being a living review was associated with using 
AI, with the most common use cases being the 


optimization of screening (prioritizing studies with high 
likelihood of being relevant) and the selection of random- 
ized controlled trials. 

As a limitation of our study, we would highlight its low 
statistical power due to the small number of reviews using 
AI. Anticipating the limited availability of reviews with AI, 
we adopted a highly sensitive screening procedure, process- 
ing more than 7,000 bibliographic references of COVID-19 
systematic reviews (combining expert advice in the selection 
of keywords and a fully-featured search engine), and chose a 
3:1 control group size to minimize the risk of type II statisti- 
cal errors. Using L-OVE as our primary database allowed ac- 
cess to all relevant and updated sources in a systematic and 
machine-readable way; however, our search strategy might 
show a reduced sensitivity to institutional reports and white- 
papers, often not indexed by traditional databases. The 
impact of download errors and excluding non-open-access 
reviews from our study is uncertain; its influence on general- 
izing our results should be interpreted in light of the diversity 
of secondary sources reachable through L-OVE and the high 
accessibility of COVID-19 research during the pandemic. 
Furthermore, the use of publication dates as a matching var- 
iable allowed for a bias-minimizing (script-driven) selection 
of controls but it prevented the use of other desirable control- 
ling variables such as review sizes or goals. 

We also note that reporting workloads “per author” 
instead of “per reviewer participating in the screening” 
may underestimate workload measurements for large teams 
(when not all their authors participate in the screening). A 
higher author count might also be related to resource avail- 
ability, and thus access to expert advice regarding AI. Like- 
wise, better-resourced groups with AI expert support might 
have greater access to well-indexed journals, potentially 
biasing Impact Factor analyses in favor of AI. The 
AMSTAR-?2 tool was inevitably applied without blinding 
the reviewers to use or non-use of AI, which, given the sub- 
jectiveness of certain aspects of the methodology assess- 
ment, might have influenced this evaluation. Finally, the 
use of citation counts to measure reviews’ impact has known 
deficiencies such as being influenced by citation bias or the 
authority of the authors [50], and this approach may under- 
estimate the impact of recently published reports. 

On average, it takes 15 months for teams of five reviewers to 
complete a traditional systematic review [51], with estimated 
screening error rates of around 10% [52]. Facing the COVID- 
19 pandemic demanded robust evidence summaries with ur- 
gency as delays incurred cost in terms of lost lives and economic 
damage. However, despite the explosive growth that the AI and 
machine learning fields have experienced during the last years, 
they played a surprisingly limited role in COVID-19 evidence 
synthesis. Our findings are consistent with previous reports 
[14] that the benefits AI can provide in the conduct of system- 
atic reviews are unknown to most review authors, while the rela- 
tive unorthodoxy of its methods might initially hinder their 
acceptance by the research community. Open-source software, 
more prone to community adoption, will be essential in this 
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aspect. Hopefully, our article will raise the profile of AI in evi- 
dence syntheses. 

Our narrative description of the reviews included in this 
study showed that none made use of more than one AI-tool. 
A more cohesive approach, seamlessly merging AI into 
every step of the review process, would save reviewers’ 
time trying to interconnect different tools with sometimes 
incompatible formats. Semi-automated screening proced- 
ures were one of the areas where AI showed more adoption, 
and the variety of software options (such as EPPI-Reviewer, 
already adopted as a Cochrane Review Production Tool) 
was higher. On the contrary, full automation was only em- 
ployed by RobotSearch (an extensively appraised random- 
ized trials identifier), suggesting that the adoption of 
increasingly automated solutions may be hindered by the 
need to further assess their potential cost on recall and 
risk-of-bias against their productivity contributions. 


5. Conclusion 


The need for automated solutions in research synthesis is 
obvious, as reviewers’ workload is growing with the rapidly 
expanding biomedical field. Adoption of new technologies 
can take time, but realizing AI’s potential in evidence syn- 
thesis should be a priority. Going forward, AI must be 
incorporated to systematic reviews as the next step toward 
timely, better, and more responsive decision-making. 
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Tabla B.1 Checklist PRISMA 2020 


participantes y de la intervenci6on, fuentes de financiacién). Describa todos los supuestos formulados sobre cualquier 
informaci6n ausente (missing) o incierta. 


Seccién/tema N° _ Item de la lista de verificacién Localizaci6n 
TITULO 1 Identifique la publicacién como una revision sistematica. 1 
RESUMEN 2 Vea la lista de verificacién para resimenes estructurados de la declaraci6n PRISMA 2020. Tabla B.2 
INTRODUCCION 
Justificacion 3 Describa la justificacién de la revisi6n en el contexto del conocimiento existente. 13 
Objetivos 4 Proporcione una declaracion explicita de los objetivos o las preguntas que aborda la revision. 14 
METODOS 
Criterios de elegibilidad 5 Especifique los criterios de inclusion y exclusion de la revisi6n y cOmo se agruparon los estudios para la sintesis. 15 
Fuentes de informacién 6 Especifique todas las bases de datos, registros, sitios web, organizaciones, listas de referencias y otros recursos de 14-15 
busqueda o consulta para identificar los estudios. Especifique la fecha en la que cada recurso se buscé 0 consult. 
Estrategia de busqueda 7 Presente las estrategias de bisqueda completas de todas las bases de datos, registros y sitios web, incluyendo cualquier 15 
filtro y los limites utilizados. 
Proceso de seleccién de 8  Especifique los métodos utilizados para decidir si un estudio cumple con los criterios de inclusi6n de la revision, 15 
los estudios incluyendo cuantos autores de la revision cribaron cada registro y cada publicaci6n recuperada, si trabajaron de manera 
independiente y, si procede, los detalles de las herramientas de automatizaci6n utilizadas en el proceso. 
Proceso de extraccién de 9 Indique los métodos utilizados para extraer los datos de los informes 0 publicaciones, incluyendo cudntos revisores 15 
los datos recopilaron datos de cada publicaci6n, si trabajaron de manera independiente, los procesos para obtener 0 confirmar 
los datos por parte de los investigadores del estudio y, si procede, los detalles de las herramientas de automatizacién 
utilizadas en el proceso. 
Lista de los datos 10a Enumere y defina todos los desenlaces para los que se buscaron los datos. Especifique si se buscaron todos los resultados 15-16 
compatibles con cada dominio del desenlace (por ejemplo, para todas las mediciones, puntos temporales, andlisis) y, de 
no ser asi, los métodos utilizados para decidir los resultados que se debian recoger. 
10b Enumere y defina todas las demas variables para las que se buscaron datos (por ejemplo, caracteristicas de los 16-17 
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Tabla B.1 Checklist PRISMA 2020 (continuaci6n) 


Seccién/tema N° _ [tem de la lista de verificacién Localizaci6n 
Evaluacion del riesgo de 11 Especifique los métodos utilizados para evaluar el riesgo de sesgo de los estudios incluidos, incluyendo detalles de las 16 
sesgo de los estudios herramientas utilizadas, cudntos autores de la revisi6n evaluaron cada estudio y si trabajaron de manera independiente 
individuales y, si procede, los detalles de las herramientas de automatizacion utilizadas en el proceso. 
Medidas del efecto 12 Especifique, para cada desenlace, las medidas del efecto (por ejemplo, raz6n de riesgos, diferencia de medias) utilizadas 16-17 
en la sintesis 0 presentacién de los resultados. 
Métodos de sintesis 13a ___Describa el proceso utilizado para decidir qué estudios eran elegibles para cada sintesis (por ejemplo, tabulando las No aplicable 
caracteristicas de los estudios de intervencién y comparandolas con los grupos previstos para cada sintesis (item n.° 5). 
13b — Describa cualquier método requerido para preparar los datos para su presentaci6n 0 sintesis, tales como el manejo de los 17 
datos faltantes en los estadisticos de resumen o las conversiones de datos. 
13c Describa los métodos utilizados para presentar visualmente los resultados de los estudios individuales y su sintesis. 17 
13d _ Describa los métodos utilizados para sintetizar los resultados y justifique sus elecciones. Si se ha realizado un metanilisis, 17 
describa los modelos, los métodos para identificar la presencia y el alcance de la heterogeneidad estadistica, y los 
programas informaticos utilizados. 
13e Describa los métodos utilizados para explorar las posibles causas de heterogeneidad entre los resultados de los estudios 17 
(por ejemplo, andlisis de subgrupos, metarregresién). 
13f  Describa los andlisis de sensibilidad que se hayan realizado para evaluar la robustez de los resultados de la sintesis. No aplicable 
Evaluacion del sesgo en 14 Describa los métodos utilizados para evaluar el riesgo de sesgo debido a resultados faltantes en una sintesis (derivados No aplicable 
el informe de los sesgos en el informe). 
Evaluacion de la certeza 15 Describa los métodos utilizados para evaluar la certeza (0 confianza) en el cuerpo de la evidencia para cada desenlace. No aplicable 
RESULTADOS 
Seleccién de los estudios 16a Describa los resultados de los procesos de busqueda y seleccion, desde el numero de registros identificados en la busqueda 18-19 
hasta el numero de estudios incluidos en la revision, idealmente utilizando un diagrama de flujo (Figura 1). 
16b Cite los estudios que aparentemente cumplian con los criterios de inclusi6n, pero que fueron excluidos, y explique por (*) 
qué fueron excluidos. 
Caracteristicas 17 Cite cada estudio incluido y presente sus caracteristicas. 24-25 
Riesgo de sesgo de los 18 Presente las evaluaciones del riesgo de sesgo para cada uno de los estudios incluidos. (*) 
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Tabla B.1 Checklist PRISMA 2020 (continuaci6n) 


Seccién/tema N° _ [tem de la lista de verificacién Localizaci6n 
Resultados de los 19 Presente, para todos los desenlaces y estudios: a) los estadisticos de resumen para cada grupo (si procede) y b) la_ No aplicable 
estudios individuales estimacion del efecto y su precision (p.ej., intervalo de confianza), idealmente con tablas estructuradas o graficos. 
Resultados de la sintesis 20a__—- Para cada sintesis, resuma brevemente las caracteristicas y el riesgo de sesgo entre los estudios contribuyentes. 19-20 

20b _‘Presente los resultados de todas las sintesis estadisticas realizadas. Si se ha realizado un metandlisis, presente para cada 20-23 

uno de ellos el estimador de resumen y su precision (por ejemplo, intervalo de credibilidad 0 de confianza) y las medidas 
de heterogeneidad estadistica. Si se comparan grupos, describa la direccién del efecto. 

20c _ Presente las investigaciones sobre las posibles causas de heterogeneidad entre los resultados de los estudios. 26-28 

20d _Presente los resultados de todos los andlisis de sensibilidad realizados para evaluar la robustez de los resultados. No aplicable 
Sesgos en el informe 21‘ Presente las evaluaciones del riesgo de sesgo debido a resultados faltantes para cada sintesis evaluada. No aplicable 
Certeza de la evidencia 22 Presente las evaluaciones de la certeza (o confianza) en el cuerpo de la evidencia para cada desenlace evaluado. No aplicable 
DISCUSION 23a Proporcione una interpretacién general de los resultados en el contexto de otras evidencias. 28 

23b Argumente las limitaciones de la evidencia incluida en la revisi6n. 29 

23c | Argumente las limitaciones de los procesos de revision utilizados. 29-30 

23d Argumente las implicaciones de los resultados para la practica, las politicas y las futuras investigaciones. 31 
OTRA INFORMACION 
Registro y protocolo 24a — Proporcione la informacion del registro de la revisi6n, o declare que la revisi6n no ha sido registrada. 6, 14 

24b Indique dénde se puede acceder al protocolo, o declare que no se ha redactado ningtn protocolo. 6, 14 

24c_ Describa y explique cualquier enmienda a la informacion proporcionada en el registro o en el protocolo. 16-17 
Financiacioén 25 Describa las fuentes de apoyo financiero o no financiero para la revisin y el papel de los financiadores 0 patrocinadores.. 6 
Conflicto de intereses 26 Declare los conflictos de intereses de los autores de la revision. 6 
Disponibilidad de datos, 27 __ Especifique qué elementos de los que se indican a continuaci6n estan disponibles al publico y donde se pueden encontrar: 6, 14, 18 


cédigos y otros 
materiales 


plantillas de formularios de extraccién de datos, datos extraidos de los estudios incluidos, datos utilizados para todos los 
analisis, cédigo de andlisis, cualquier otro material utilizado en la revision. 


Adaptado de: [19] Page MJ et al. The PRISMA 2020 statement: An updated guideline for reporting systematic reviews. BMJ. 2021;372:n71.Traduccién disponible en: Rev 
Espaniola Cardiol. 2021;74:790-9. 
(*)Suppl.mat. 2: disponible en la web de la revista. 
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Tabla B.2 Checklist para Abstracts PRISMA 2020 


Seccién/tema N°  ftem de la lista de verificacién iPresente? 

TITULO 

Titulo 1 Identifique el informe como una revision sistematica. Si 

ANTECEDENTES 

Objetivos 3. Proporcionar una declaracién explicita de los principales objetivos o preguntas que aborda la revision. Si 

METODOS 

Criterios de elegibilidad 4 Especifique los criterios de inclusion y exclusion de la revision. Si 

Fuentes de informaci6n 5 Especifique las fuentes de informacion (por ejemplo, bases de datos, registros) utilizadas para identificar los estudios y la Si 
fecha de la ultima bisqueda en cada una de ellas. 

Riesgo de sesgo 6 — Especifique los métodos utilizados para evaluar el riesgo de sesgo en los estudios incluidos. Si 

Sintesis de los resultados 6 Especifique los métodos utilizados para presentar y sintetizar los resultados. No 

RESULTADOS 

Estudios incluidos 6 —Indicar el nimero total de estudios y participantes incluidos y resumir las caracteristicas relevantes de los estudios. Si 

Sintesis de los resultados 6  Presentar los resultados de los principales resultados, indicando preferentemente el nimero de estudios incluidos Si 
y de participantes para cada uno. Si se realiz6 un meta-andlisis, informe la estimaci6n resumida y el intervalo de 
confianza/creencia. Si se comparan grupos, indicar la direccién del efecto (es decir, qué grupo se ve favorecido). 

DISCUSION 

Limitaciones de la evidencia 6 Proporcione un breve resumen de las limitaciones de la evidencia incluida en la revision (por ejemplo, riesgo de sesgo No 
del estudio, inconsistencia e imprecisién). 

Interpretacion 6 Proporcionar una interpretaci6n general de los resultados y las implicaciones importantes. Si 

OTROS 

Financiacion 6  Especifique la fuente principal de financiaci6n de la revision. No 

Registro 6 Proporcionar el nombre del registro y el nimero de registro. No 
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Palabras clave de busqueda 


support vector machine 
SVM 

logistic regression 
random forest 

random forests 

random decision forest 
random decision forests 
decision tree 

naive bayes 

naive bayes 

bayes multinomial 


bayesian belief network 


. neural network 


convolutional neural 
network 


. CNN 


. recurrent neural network 


multi-layer perceptron 


. multi-perceptron 

. semantic model 

. semantic models 

. k-nearest neighbour 

. latent dirichlet allocation 
. LDA 


statistical relational 
learning 


. genetic algorithm 
. instance-based learning 
. conditional random field 


. conditional random 


fields 


. hidden markov model 
. hidden markov models 


. linear chain 


. maximum entropy 


classifier 


. embedding 


embeddings 


. k-means 

. cosine similarity 

. dbscan 

. hierarchical clustering 
. partitional clustering 
. tokenization 

. topic modeling 

. stemming 

. stemmer 

. convolution 

. autoencoder 


. principal component 


analysis 


. PCA 

. softmax 
. doc2vec 
. word2vec 
. evo-SVM 
. evoSVM 


. abstrackr 


gapscreener 


. pimiento 

. rapidminer 
. tensorflow 

. scikit-learn 
. sklearn 

. weka 

. keras 


. artificial intelligence 


63. 
64. 
65. 


66. 
67. 
68. 
69. 
70. 
71. 
72. 


73. 
74, 
75. 
76. 
TL 
78. 


79. 
80. 
81. 
82. 
83. 
84. 
85. 
86. 
87. 
88. 
89. 
90. 
91. 
92. 


machine learning 
speech recognition 


natural language 
processing 


text mining 

visual data mining 
deep learning 

active learning 
supervised learning 
unsupervised learning 


semi-supervised 
learning 


reinforcement learning 
feature selection 
attribute selection 
variable subset selection 
dimensionality reduction 
automatic term 
recognition 

named entity recognition 
association extraction 
automatic classification 

f measure 

fl-measure 

f-score 

training set 

test set 

validation set 

curpus 

rmse 

stop words 

parts of speech 


n-grams 
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Apéndice D 


Evaluaci6n metodolégica 
AMSTAR-2 


Se enumeran a continuaciOn unicamente los items de la escala metodoldégica 
AMSTAR-2 evaluados en nuestro estudio. Se excluyen asi los elementos 11, 12 y 
16 de la escala original. 


1. ¢Incluian las preguntas de investigacion y los criterios de inclusién los componentes 
PICO? 

2. ¢Contenia el informe de la revisi6n una declaracién explicita de que los métodos 
de revisiOn se establecieron antes de la realizacidn de la revision, y justificaba el 
informe cualquier desviaci6n significativa del protocolo? 

3. Se explicé la seleccién de los disefios de estudio elegibles para su inclusion en la 
revision? 

4. Los autores de la revision utilizaron una estrategia de busqueda bibliografica 

exhaustiva? 

iLos autores de la revisi6n realizaron la seleccidn de estudios por duplicado? 

iLos autores de la revision realizaron la extraccién de datos por duplicado? 

¢5e proporcioné una lista de los estudios excluidos y se justificaron las exclusiones? 

éLos autores de la revisi6n describieron los estudios incluidos con suficiente detalle? 


Se SS 


éLos autores de la revision utilizaron una técnica satisfactoria para evaluar el riesgo 

de sesgo en los estudios individuales que se incluyeron en la revision? 

10. ¢Se inform6 sobre las fuentes de financiacién de los estudios incluidos en la 
revision? 

13. Los autores de la revisi6n tuvieron en cuenta el riesgo de sesgo en los estudios 
individuales al interpretar 0 discutir los resultados de la revision? 

14. Los autores de la revisién proporcionaron una explicaci6n satisfactoria y una 
discusi6n de cualquier heterogeneidad observada en los resultados de la revisién? 

16.  Informaron los autores de la revisi6n sobre cualquier fuente potencial de conflicto 

de intereses, incluida cualquier financiacién que hayan recibido para realizar la 

revision? 


Adaptado de: [24] Shea BJ et al. AMSTAR 2: A critical appraisal tool for systematic reviews that include 
randomised or non-randomised studies of healthcare interventions, or both. BMJ. 2017;358:j4008. 
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Apéndice E 


Normas de publicacion de la 


revista 


INTRODUCTION 


The Journal of Clinical Epidemiology 
aims at promoting the quality of clinical epi- 
demiologic and patient-oriented health ser- 
vices research through the following: Ad- 
vancement and application of innovative 
methods of conducting and presenting pri- 
mary research; Synthesizing research results; 
Disseminating results; And translating re- 
sults into optimal clinical practice with spe- 
cial attention to the training of new genera- 
tions of scientists and clinical practice lea- 


ders. 


Contributions are welcomed from any 
pertinent source but should be written 
clearly enough to be understood by scholarly 


clinical readers and clinical researchers. 


Authorship 


All authors should have made substan- 
tial contributions to all of the following: (1) 
the conception and design of the study, or 
acquisition of data, or analysis and inter- 
pretation of data, (2) drafting the article or 
revising it critically for important intellectual 
content, (3) final approval of the version to be 
submitted. A description of the contribution 
of each individual listed as an author will 
be requested by the journal at the time of 


submission 


Article Types and Lengths 


The Journal of Clinical Epidemiology ac- 
cepts submissions for the following article 
types. Please do not exceed the maximum 
word count or table/figure limits listed. * 
Reviews: 3,000 words, 50 references, 5 figu- 
res, 5 tables * Original Articles: 3,000 words, 
50 references, 5 figures, 5 tables * Letters: 
500 words * Commentaries: 2,500 words, 10 
references, 2 figures, 2 tables. * Additional fi- 
gures and tables, as well as appendices, may 
be included as supplementary, online-only 


material. 


ARTICLE STRUCTURE 


Formatting requirements 


There are no strict formatting requi- 
rements but all manuscripts must contain 
the essential elements needed to convey 
your manuscript, for example Abstract, Key- 
words, Introduction, Materials and Methods, 
Results, Conclusions, Artwork and Tables 
with Captions. If your article includes any 
Videos and/or other Supplementary mate- 
rial, this should be included in your initial 
submission for peer review purposes. 


Subdivision - numbered sections 


Divide your article into clearly defined 
and numbered sections. Subsections should 
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be numbered 1.1 (then 1.1.1, 1.1.2, ...), 1.2, 
etc. (the abstract is not included in section 
numbering). Use this numbering also for in- 
ternal cross-referencing: do not just refer to 
‘the text’. Any subsection may be given a 
brief heading. Each heading should appear 


on its own separate line. 


Appendices 


If there is more than one appendix, they 
should be identified as A, B, etc. Formulae 
and equations in appendices should be given 
separate numbering: Eq. (A.1), Eq. (A.2), etc.; 
in a subsequent appendix, Eq. (B.1) and so 
on. Similarly for tables and figures: Table A.1; 
Fig. A.1, etc. 


Essential Title Page Information 


¢ Title. Concise and informative. Titles 
are often used in information-retrieval sys- 
tems. Avoid abbreviations and formulae 
where possible. JCE has adopted the edito- 
rial policy of "more informative titles"(MITs) 
that crisply and concisely tell our readers 
what our authors found in their research. 
A MIT states the study type and summa- 
rizes its key findings, using the past tense 
for individual studies and the present ten- 
se for systematic reviews. Although we are 
ready to assist authors in generating MITs 
for their work, we encourage them to submit 
draft MITs with their original submissions. 
e Author names and affiliations. Where the 
family name may be ambiguous (e.g., a dou- 
ble name), please indicate this clearly. Pre- 
sent the authors’ affiliation addresses (where 
the actual work was done) below the na- 
mes. Indicate all affiliations with a lower- 
case superscript letter immediately after the 
author’s name and in front of the appropria- 
te address. ¢ Corresponding author. Clearly 
indicate who will handle correspondence at 
all stages of refereeing and publication, also 
post-publication. Ensure that phone num- 
bers (with country and area code) are pro- 
vided in addition to the e-mail address and 


the complete postal address. Contact details 
must be kept up to date by the corresponding 
author. 


Highlights 


Highlights should be submitted in a se- 
parate editable file in the online submission 
system. Please use ‘Highlights’ in the file 
name and include 3 to 5 bullet points (ma- 
ximum 85 characters, including spaces, per 
bullet point). 


Abstract 


Each original article must have an abs- 
tract/summary not exceeding 200 words. 
Abstracts must be structured with the follo- 
wing headings: Objective, Study Design and 
Setting, Results, and Conclusion. An abstract 
is often presented separately from the arti- 
cle, so it must be able to stand alone. For 
this reason, References should be avoided, 
but if essential, then cite the author(s) and 
year(s). Also, non-standard or uncommon 
abbreviations should be avoided, but if es- 
sential they must be defined at their first 
mention in the abstract itself. Double-space 
abstracts, and print them on a separate page. 
Abstracts not in compliance with this format 
will be returned to the authors for revision. 
The bottom of the abstract page should list 
six key words (index-appropriate terms), a 


running title and a word count. 


Graphical abstract 


Although a graphical abstract is optional, 
its use is encouraged as it draws more atten- 
tion to the online article. The graphical abs- 
tract should summarize the contents of the 
article in a concise, pictorial form designed 


to capture the attention of a wide readership. 


Keywords 


Immediately after the abstract, provide 
a maximum of 6 keywords, using American 
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spelling and avoiding general and plural 
terms and multiple concepts. 


What is new? 


e Authors are asked to provide a text box 
entitled "What is new"that summarized what 
this paper adds to the existing literature, 
with up to 5 items/points addressing the fo- 
llowing areas: Key findings; What this adds 
to what is known; What is the implication, 
what should change now. 


REFERENCES 


Citation in text 


Please ensure that every reference cited 
in the text is also present in the reference list 
(and vice versa). Any references cited in the 
abstract must be given in full. Unpublished 
results and personal communications are not 
recommended in the reference list, but may 
be mentioned in the text. If these references 
are included in the reference list they should 
follow the standard reference style of the 
journal and should include a substitution 
of the publication date with either “Unpu- 
blished results’ or Personal communication’. 
Citation of a reference as ‘in press’ implies 
that the item has been accepted for publica- 


tion. 


Reference links 


Increased discoverability of research and 
high quality peer review are ensured by on- 
line links to the sources cited. In order to 
allow us to create links to abstracting and 
indexing services, such as Scopus, CrossRef 
and PubMed, please ensure that data provi- 
ded in the references are correct. Please note 
that incorrect surnames, journal/book titles, 
publication year and pagination may pre- 
vent link creation. When copying references, 
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please be careful as they may already contain 
errors. Use of the DOI is highly encouraged. 


Web references 


As a minimum, the full URL should be 
given and the date when the reference was 
last accessed. Any further information, if 
known (DOI, author names, dates, reference 
to a source publication, etc.), should also be 
given. Web references can be listed separa- 
tely (e.g., after the reference list) under a dif- 
ferent heading if desired, or can be included 
in the reference list. 


Data references 


This journal encourages you to cite un- 
derlying or relevant datasets in your manus- 
cript by citing them in your text and inclu- 
ding a data reference in your Reference List. 
Data references should include the following 
elements: author name(s), dataset title, data 
repository, version (where available), year, 
and global persistent identifier. Add [data- 
set] immediately before the reference so we 
can properly identify it as a data reference. 
The [dataset] identifier will not appear in 
your published article. 


Reference formatting 


There are no strict requirements on re- 
ference formatting at submission. Referen- 
ces can be in any style or format as long 
as the style is consistent. Where applicable, 
author(s) name(s), journal title/book title, 
chapter title /article title, year of publication, 
volume number/book chapter and the arti- 
cle number or pagination must be present. 
Use of DOI is highly encouraged. The re- 
ference style used by the journal will be 
applied to the accepted article by Elsevier at 
the proof stage. 


